对于训练集,验证集,测试集的概念,很多人都搞不清楚。网上的文章也是鱼龙混杂,因此,现在来把这方面的知识梳理一遍。让我们先来看一下模型验证(评估)的几种方式。 在机器学习中,当我们把模型训练出来 ...
对于训练集,验证集,测试集的概念,很多人都搞不清楚。网上的文章也是鱼龙混杂,因此,现在来把这方面的知识梳理一遍。让我们先来看一下模型验证(评估)的几种方式。 在机器学习中,当我们把模型训练出来 ...
TSS: Total Sum of Squares(总离差平方和) --- 因变量的方差 RSS: Residual Sum of Squares (残差平方和) --- 由误差导致的真 ...
线性回归模型比较常见的特征选择方法有两种,分别是最优子集和逐步回归。此外还有正则化,降维等方法。 1,最优子集(Best Subset Selection):从零号模型(null model) ...
虚拟变量陷阱(Dummy Variable Trap):指当原特征有m个类别时,如果将其转换成m个虚拟变量,就会导致变量间出现完全共线性的情况。 假设我们有一个特征“性别”,包含男性和女性两个 ...
什么是超参数? 机器学习模型中一般有两类参数:一类需要从数据中学习和估计得到,称为模型参数(Parameter)---即模型本身的参数。比如,线性回归直线的加权系数(斜率)及其偏差项(截距)都是模型 ...
之前在《训练集,验证集,测试集(以及为什么要使用验证集?)(Training Set, Validation Set, Test Set)》一文中已经提过对模型进行验证(评估)的几种方式。下面来回顾一 ...
自助法(Bootstraping)是另一种模型验证(评估)的方法(之前已经介绍过单次验证和交叉验证:验证和交叉验证(Validation & Cross Validation))。其以自助采样 ...
一,定义 异常点(Outlier):残差很大的点(即:因变量y的值是极端值的观测值) 高杠杆点(High Leverage Point):远离样本空间中心的点(即:自变量x的值是极端值的观测值) ...
因为光看模型在训练集上的表现容易导致过拟合,因此回归模型通常有两种评价方式,一种是看验证/交叉验证的结果,另一种是对训练集上的表现结果进行修正,常见指标有:AIC,BIC,Cp,adjusted R2 ...
特征缩放的几种方法: (1)最大最小值归一化(min-max normalization):将数值范围缩放到 [0, 1] 区间里 (2)均值归一化(mean normali ...